Text copied to clipboard!

Заглавие

Text copied to clipboard!

Инженер по надеждността на сайтове (SRE)

Описание

Text copied to clipboard!
Търсим Инженер по надеждността на сайтове (SRE), който да се присъедини към нашия екип и да играе ключова роля в поддържането на стабилността, мащабируемостта и ефективността на нашите системи. Като SRE, вие ще работите в тясно сътрудничество с екипите по разработка и операции, за да осигурите безпроблемна работа на нашите услуги и приложения. Вашата основна цел ще бъде да автоматизирате процеси, да подобрявате мониторинга и да реагирате бързо на инциденти, за да минимизирате времето на престой и да осигурите висока наличност. Вашите отговорности ще включват проектиране и внедряване на инструменти за наблюдение, анализ на производителността, управление на инциденти и участие в архитектурни решения, които подобряват надеждността на системите. Ще работите с облачни платформи, контейнери и CI/CD процеси, за да осигурите бързо и безопасно внедряване на нови функционалности. Освен това ще участвате в разработването на политики за сигурност и възстановяване при бедствия. Идеалният кандидат има силен технически опит в Linux/Unix среди, познания по програмиране (напр. Python, Go или Bash), опит с инструменти за мониторинг като Prometheus, Grafana или Datadog, както и умения за работа с Kubernetes и облачни платформи като AWS, GCP или Azure. Очакваме от вас да имате аналитично мислене, способност за решаване на проблеми и желание за непрекъснато усъвършенстване на процесите. Ако сте мотивиран професионалист, който се стреми към висока надеждност и автоматизация, и искате да работите в динамична и технологично напреднала среда, ще се радваме да се свържете с нас.

Отговорности

Text copied to clipboard!
  • Осигуряване на висока наличност и надеждност на системите
  • Разработване и поддръжка на инструменти за мониторинг и алармиране
  • Автоматизиране на рутинни операции и процеси
  • Участие в управление на инциденти и анализ на причините
  • Сътрудничество с екипи по разработка за внедряване на нови функционалности
  • Оптимизиране на производителността на системите
  • Участие в архитектурни решения за подобряване на надеждността
  • Поддръжка на CI/CD процеси и инфраструктура
  • Разработване на политики за сигурност и възстановяване при бедствия
  • Документиране на процеси и добри практики

Изисквания

Text copied to clipboard!
  • Опит като SRE, DevOps инженер или системен администратор
  • Добри познания по Linux/Unix системи
  • Умения за програмиране на Python, Go или Bash
  • Опит с инструменти за мониторинг като Prometheus, Grafana или Datadog
  • Познания по Kubernetes и контейнери
  • Опит с облачни платформи (AWS, GCP, Azure)
  • Разбиране на CI/CD процеси и инструменти
  • Умения за анализ и решаване на проблеми
  • Добри комуникационни умения и работа в екип
  • Желание за учене и усъвършенстване

Потенциални въпроси за интервю

Text copied to clipboard!
  • Какъв е вашият опит с мониторинг и алармиране?
  • Работили ли сте с Kubernetes и какви предизвикателства сте срещали?
  • Как автоматизирате рутинни задачи в ежедневната си работа?
  • Как реагирате при инциденти и какво е вашето участие в анализа на причините?
  • Какви инструменти използвате за CI/CD и защо?
  • Какви са вашите предпочитани езици за скриптиране и защо?
  • Как поддържате сигурността на инфраструктурата?
  • Какво е вашето разбиране за SLO/SLI/SLA?
  • Какво ви мотивира да работите като SRE?
  • Как се справяте с работа под напрежение?